1561-5405

10.24151/1561-5405

Proceedings of Universities. Electronics

Scientifical and technical journal "Proceedings of Universities. Electronics"

Научно-технический журнал «Известия высших учебных заведений. Электроника»

1561-5405 2587-9960

National Research University of Electronic Technology

Национальный исследовательский университет "Московский институт электронной техники"

10.24151/1561-5405-2026-31-2-225-239

QUZQJF

004.315.7

Информационно-коммуникационные технологии

Architecture of reconfigurable systolic array for neural network booster

Архитектура реконфигурируемого систолического массива для ускорителя нейронных сетей

Гуржов Никита Александрович

Гуржов

Никита Александрович

Gurzhov

Nikita A.

Nikita A. Gurzhov

Переверзев Алексей Леонидович

Переверзев

Алексей Леонидович

Pereverzev

Alexey L.

Alexey L. Pereverzev

Примаков Евгений Владимирович

Примаков

Евгений Владимирович

Primakov

Evgeny V.

Evgeny V. Primakov

Силантьев Александр Михайлович

Силантьев

Александр Михайлович

Silantiev

Aleksander M.

Aleksander M. Silantiev

Солодовников Андрей Павлович

Солодовников

Андрей Павлович

Solodovnikov

Andrey P.

Andrey P. Solodovnikov

Чусов Сергей Андреевич

Чусов

Сергей Андреевич

Chusov

Sergey A.

Sergey A. Chusov

Якунин Алексей Николаевич

Якунин

Алексей Николаевич

Yakunin

Aleksey N.

Aleksey N. Yakunin

National Research University of Electronic Technology, Russia, 124498, Moscow, Zelenograd, Shokin sq., 1

03032026

Том. 31 №2225239

http://ivuz-e.ru/en/issues/Том 31 №2/arkhitektura_rekonfiguriruemogo_sistolicheskogo_massiva_dlya_uskoritelya_neyronnykh_setey/

http://ivuz-e.ru#

Systolic arrays within heterogeneous computing platforms allow for substantial performance gains in numerical methods, combinatorial problem solving, as well as in image, signal, speech, and text processing. Systolic arrays use accelerates tensor computations by reducing memory traffic and avoiding the transfer of intermediate data through external subsystems. However, available open-source implementations are limited in scope and lack the ability to be reconfigured. In this work, reconfigurable systolic array architecture is proposed based on two fundamental modes: with static sums (Output Stationary) and static weights (Weight Stationary). It has been established that the preferable configuration depends on the target workload. In operations requiring high computational speed it is advisable to use mode with static sums. In that case, the execution cycles’ number is reduced 27-fold in average. When energy efficiency and reduction in number of memory requests are in priority, mode with static weights is more advantageous. Consequently, in convolutional tasks, memory access requirements are lowered by approximately 1.5 times. The research outcomes may find application in the design of systems requiring flexible and resource-efficient implementation of tensor operations customized according to specific operating conditions.

Систолические массивы в составе гетерогенных вычислительных архитектур позволяют достигать высокой производительности при решении задач численных методов, комбинаторных алгоритмов, а также при обработке изображений, сигналов, речи и текстовой информации. Использование систолических массивов обеспечивает ускорение тензорных вычислений за счет минимизации обращений к памяти и исключения необходимости передачи промежуточных данных через внешние подсистемы. Однако существующие открытые решения имеют ограниченную функциональность и не предусматривают динамической перенастройки. В работе предложена реконфигурируемая архитектура систолического массива, основанная на двух режимах работы – со статическими суммами (Output Stationary) и статическими весами (Weight Stationary). Установлено, что выбор режима работы должен определяться характером целевой задачи. В операциях, требующих быстродействия, целесообразно применять режим работы со статическими суммами. В таком случае количество тактов выполнения в среднем уменьшается в 27 раз. При акценте на энергоэффективность и сокращение количества обращений к памяти предпочтительным является режим работы со статическими весами. Как следствие, в задачах свертки количество обращений снижается приблизительно в 1,5 раза. Полученные результаты могут найти применение при проектировании систем, требующих адаптивности и оптимизации тензорных вычислений под конкретные условия эксплуатации.

systolic arraystatic sumsstatic weightsOutput StationaryWeight Stationaryreconfigurable structurequantizationneural networks

Гуржов Н. А., Переверзев А. Л., Силантьев А. М., Примаков Е. В., Солодовников А. П. Разработка реконфигурируемого систолического массива для ускорения вычисления слоев нейронной сети. Тенденции развития науки и образования. 2024;(116-19):75–80. https://doi.org/10.18411/trnio-12-2024-868. EDN: KSKOWJ.

Gurzhov N. A., Pereverzev A. L., Silant’yev A. M., Primakov E. V., Solodovnikov A. P. Development of reconfigurable systolic array for speeding up calculation of neural network layers. Tendentsii razvitiya nauki i obrazovaniya. 2024;(116-19):75–80. (In Russ.). https://doi.org/10.18411/trnio-12-2024-868

Kung H. T. Why systolic architectures? Computer. 1982;15(1):37–46. https://doi.org/10.1109/MC.1982.1653825

TPU architecture. Google Cloud TPU. 2025. Available at: https://cloud.google.com/tpu/docs/system-architecture-tpu-vm (accessed: 18.11.2025).

Zehendner E. 16.1. Basic concepts of systolic systems. In: Algorithms of Informatics. Vol. 2: Applications. Ed. A. Iványi. Budapest: mondAt Kiadó; 2007, pp. 752–760.

Understanding matrix multiplication on a weight-stationary systolic architecture. Telesens. 30.07.2018. Available at: https://telesens.co/2018/07/30/systolic-architectures/ (accessed: 18.11.2025).

Benoit J., Kligys S., Chen B., Zhu M., Tang M., Howard A. et al. Quantization and training of neural networks for efficient integer-arithmetic-only inference. In: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE; 2018, pp. 2704–2713. https://doi.org/10.1109/CVPR.2018.00286

Nagel M., Fournarakis M., Amjad R. A., Bondarenko Ye., Baalen M. van, Blankevoort T. A white paper on neural network quantization. arXiv.org. 15.06.2021. Available at: https://arxiv.org/abs/2106.08295 (accessed: 18.03.2025). https://doi.org/10.48550/arxiv.2106.08295

Sun W., Liu D., Zou Zh., Sun Wen., Kang Y., Chen S. Sense: Model hardware co-design for accelerating sparse CNN on systolic array. arXiv.org. 01.02.2022. Available at: https://arxiv.org/abs/2202.00389 (accessed: 18.03.2025). https://doi.org/10.48550/arxiv.2202.00389

Marino K., Zhang P., Prasanna V. ME-ViT: A single-load memory-efficient FPGA accelerator for vision transformers. arXiv.org. 15.02.2024. Available at: https://arxiv.org/abs/2402.09709 (accessed: 18.03.2025). https://doi.org/10.48550/arxiv.2402.09709

10.

Selvam S., Ganesan V., Kumar P. FuSeConv: Fully separable convolutions for fast inference on systolic arrays. arXiv.org. 27.05.2021. Available at: https://arxiv.org/abs/2105.13434 (accessed: 18.03.2025). https://doi.org/10.48550/arxiv.2105.13434

11.

Initializing weights for the convolutional and fully connected layers. Telesens. 09.04.2018. Available at: https://www.telesens.co/2018/04/09/initializing-weights-for-the-convolutional-and-fully-connected-la... (accessed: 18.11.2025).